Sondeo de perturbación: Un diagnóstico de dos pasadas por prompt para circuitos de comportamiento de FFN en LLMs alineados
Descubre cómo el sondeo de perturbación diagnostica circuitos FFN en LLMs alineados para mejorar la interpretabilidad de modelos de lenguaje